KSC 2018
Current Result Document :
ÇѱÛÁ¦¸ñ(Korean Title) |
ÈÞ¸Õ Ç÷¹ÀÌ µ¥ÀÌÅ͸¦ È°¿ëÇÑ ¸Þ¸ð¸® ±â¹Ý ¸ð¹æÇнÀ |
¿µ¹®Á¦¸ñ(English Title) |
Memory-based Imitation learning using Human-play data |
ÀúÀÚ(Author) |
¹Îº´ÁØ
±è°æÁß
Byeongjun Min
KyungJoong Kim
|
¿ø¹®¼ö·Ïó(Citation) |
VOL 45 NO. 02 PP. 0734 ~ 0736 (2018. 12) |
Çѱ۳»¿ë (Korean Abstract) |
ÃÖ±Ù °ÈÇнÀÀº º¹ÀâÇÑ ÀÇ»ç°áÁ¤ ¹®Á¦¿¡¼ ÁÁÀº ¼º°úµéÀ» ´Þ¼ºÇÏ°í ÀÖÀ¸¸ç, ½Å°æ¸Á°ú °ÈÇнÀÀ» °áÇÕÇÑ Deep Q Network(DQN), Asynchronous Actor-Critic Agents(A3C) ¿Í °°Àº ¸ðµ¨µéÀÌ ¸¹ÀÌ »ç¿ëµÇ°í ÀÖ´Ù. ÇÏÁö¸¸ ½Å°æ¸Á ±â¹Ý ¸ðµ¨µéÀº Stochastic Gradient Descent(SGD) ÀÇ ´À¸° ¾÷µ¥ÀÌÆ® ¼Óµµ·Î ÀÎÇØ ÇнÀ¿¡ ¸Å¿ì ¿À·£ ½Ã°£ÀÌ ¼Ò¸ðµÈ´Ù. ¶ÇÇÑ °ÈÇнÀ¿¡¼´Â ¿¡ÀÌÀüÆ®°¡ ½º½º·Î ÇнÀ¿¡ ÇÊ¿äÇÑ »ùÇà µ¥ÀÌÅ͸¦ ¼öÁýÇϱ⠶§¹®¿¡, ¿¡ÀÌÀüÆ®´Â ¸Å¿ì ¿À·£ ½Ã°£µ¿¾È ȯ°æ°úÀÇ »óÈ£ÀÛ¿ëÀ» ÇÑ´Ù. º» ³í¹®¿¡¼´Â ÀÌ·¯ÇÑ ´À¸° ÇнÀ¼Óµµ¸¦ °³¼±Çϱâ À§ÇÑ ¸Þ¸ð¸® ±â¹Ý ÇнÀ¹æ¹ý Episodic Control From Demonstration(ECFD)À» Á¦¾ÈÇÏ¿© ÈÞ¸Õ Ç÷¹ÀÌ µ¥ÀÌÅͼÂÀ» È°¿ëÇÑ ¸ð¹æÇнÀÀ» ÁøÇàÇÑ´Ù. ½ÇÇèÀº Atari ȯ°æ¿¡¼ ÁøÇàÇÏ¿´°í, ±âÁ¸ ¸ðµ¨µé°ú ºñ±³ÇØ ÁÁÀº ¼º´ÉÀ» º¸¿´´Ù. |
¿µ¹®³»¿ë (English Abstract) |
|
Å°¿öµå(Keyword) |
|
ÆÄÀÏ÷ºÎ |
PDF ´Ù¿î·Îµå
|